智能论文笔记

Maximum Class Separation as Inductive Bias in One Matrix

Tejaswi Kasarla , Gertjan J. Burghouts , Max van Spengler , Elise van der Pol , Rita Cucchiara , Pascal Mettes

分类：机器学习 | 计算机视觉

2022-06-17

最大化类之间的分离构成了机器学习中众所周知的归纳偏见和许多传统算法的支柱。默认情况下，深网不配备这种电感偏差，因此通过差异优化提出了许多替代解决方案。当前的方法倾向于共同优化分类和分离：将输入与类向量对齐，并角度分离载体。本文提出了一个简单的替代方法：通过在计算SoftMax激活之前添加一个固定的矩阵乘法，将最大分离作为网络中的电感偏差编码。我们方法背后的主要观察结果是，分离不需要优化，可以在训练之前以封闭形式解决并插入网络。我们概述了一种递归方法，以获取由任何数量类别的最大可分离矢量组成的矩阵，可以通过可忽略的工程工作和计算开销添加。尽管它的性质很简单，但这个矩阵乘法提供了真正的影响。我们表明，我们的建议直接提高分类，长尾识别，分布式检测和开放式识别，从CIFAR到Imagenet。我们从经验上发现，最大分离最有效地作为固定偏见。使矩阵可学习不会增加表现。在GitHub上，封闭形式的实现和代码是在GitHub上。

translated by 谷歌翻译

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Teven Le Scao , Angela Fan , Christopher Akiki , Ellie Pavlick , Suzana Ilić , Daniel Hesslow , Roman Castagné , Alexandra Sasha Luccioni , François Yvon , Matthias Gallé

分类：自然语言处理

2022-11-09

Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.

translated by 谷歌翻译

Preregistered protocol for: Articulatory changes in speech following treatment for oral or oropharyngeal cancer: a systematic review

Thomas B. Tienkamp , Teja Rebernik , Defne Abur , Rob J. J. H. van Son , Sebastiaan A. H. J. de Visscher , Max J. H. Witjes , Martijn Wieling

分类：自然语言处理

2022-09-14

该文档概述了Prospero预先注册的方案，用于对口腔或口腔或肉桂癌治疗后语音变化的系统审查进行系统审查。口腔中肿瘤的治疗可能会导致生理变化，这可能导致发音困难。由于疤痕组织和/或潜在的（术后）放射治疗，舌头变得不那么流动。此外，组织损失可能会为气流或极限收缩可能性创造旁路。为了更好地了解语音问题的性质，需要有关枢纽运动的信息，因为感知信息或声学信息仅提供了间接的关节变化证据。因此，这项系统的综述将回顾研究，该研究直接测量口腔或口咽癌治疗后舌，下巴和嘴唇的关节运动。

translated by 谷歌翻译

Clifford Neural Layers for PDE Modeling

Johannes Brandstetter , Rianne van den Berg , Max Welling , Jayesh K. Gupta

分类：机器学习 | 计算机视觉

2022-09-08

部分微分方程（PDE）参见在科学和工程中的广泛使用，以将物理过程的模拟描述为标量和向量场随着时间的推移相互作用和协调。由于其标准解决方案方法的计算昂贵性质，神经PDE代理已成为加速这些模拟的积极研究主题。但是，当前的方法并未明确考虑不同字段及其内部组件之间的关系，这些关系通常是相关的。查看此类相关场的时间演变通过多活动场的镜头，使我们能够克服这些局限性。多胎场由标量，矢量以及高阶组成部分组成，例如双分数和三分分射线。 Clifford代数可以描述它们的代数特性，例如乘法，加法和其他算术操作。据我们所知，本文介绍了此类多人表示的首次使用以及Clifford的卷积和Clifford Fourier在深度学习的背景下的转换。由此产生的Clifford神经层普遍适用，并将在流体动力学，天气预报和一般物理系统的建模领域中直接使用。我们通过经验评估克利福德神经层的好处，通过在二维Navier-Stokes和天气建模任务以及三维Maxwell方程式上取代其Clifford对应物中常见的神经PDE代理中的卷积和傅立叶操作。克利福德神经层始终提高测试神经PDE代理的概括能力。

translated by 谷歌翻译

Sort by Structure: Language Model Ranking as Dependency Probing

Max Müller-Eberstein , Rob van der Goot , Barbara Plank

分类：自然语言处理

2022-06-10

对预训练的语言模型（LM）做出明智的选择对于性能至关重要，但环境成本高昂，并且如此广泛地被忽略。计算机视觉领域已经开始解决编码器排名，并有希望地进入自然语言处理，但是它们缺乏对诸如结构化预测等语言任务的覆盖范围。我们建议通过测量可以从LM的上下文化嵌入中恢复标记的树的程度来探测LMS，特别是针对给定语言的解析依赖性。在46个类型和结构上不同的LM语言对中，我们的探测方法预测，最佳的LM选择有79％的时间使用尺寸的计算订单，而不是训练完整的解析器。在这项研究中，我们识别并分析了最近提出的脱钩LM -Rembert-并发现它的固有依赖信息较少，但经过完整的微调后通常会产生最好的解析器。没有这个离群，我们的方法将在89％的情况下确定最佳的LM。

translated by 谷歌翻译

GradMax: Growing Neural Networks using Gradient Information

Utku Evci , Max Vladymyrov , Thomas Unterthiner , Bart van Merriënboer , Fabian Pedregosa

分类：机器学习 | 计算机视觉

2022-01-13

神经网络的架构和参数通常独立优化，这需要每当修改体系结构时对参数的昂贵再次再次再次进行验证。在这项工作中，我们专注于在不需要昂贵的再培训的情况下越来越多。我们提出了一种在训练期间添加新神经元的方法，而不会影响已经学到的内容，同时改善了培训动态。我们通过最大化新重量的梯度来实现后者，并通过奇异值分解（SVD）有效地找到最佳初始化。我们称这种技术渐变最大化增长（Gradmax），并展示其各种视觉任务和架构的效力。

translated by 谷歌翻译

How Universal is Genre in Universal Dependencies?

Max Müller-Eberstein , Rob van der Goot , Barbara Plank

分类：自然语言处理

2021-12-09

这项工作提供了普遍依赖项（UD）中类型的第一个深入分析。相反，与在单级/双语设置中使用小型定义标签的类型的类型工作，UD含有18个类型，其具有不同程度的特异性分布在114种语言中。由于大多数树班斯都标有多种类型，而缺乏关于哪种实例属于哪些类型的注释，我们提出了四种方法来预测使用TreeBank元数据的弱监督预测实例级类型。所提出的方法恢复了比竞争性基线更好的竞争基线，如在UD的子集上用标记的情况测量并更好地遵守全球预期分布。我们的分析使用UD流派元数据在For TreeBank选择的情况下揭示了现有的工作，发现单独的元数据是嘈杂的信号，并且必须在TreeBanks内解开，然后才能普遍应用。

translated by 谷歌翻译

Geometric and Physical Quantities Improve E(3) Equivariant Message Passing

Johannes Brandstetter , Rob Hesselink , Elise van der Pol , Erik J Bekkers , Max Welling

分类：机器学习 | 人工智能 | (统计)机器学习

2021-10-06

包括协调性信息，例如位置，力，速度或旋转在计算物理和化学中的许多任务中是重要的。我们介绍了概括了等级图形网络的可控e（3）的等值图形神经网络（Segnns），使得节点和边缘属性不限于不变的标量，而是可以包含相协同信息，例如矢量或张量。该模型由可操纵的MLP组成，能够在消息和更新功能中包含几何和物理信息。通过可操纵节点属性的定义，MLP提供了一种新的Activation函数，以便与可转向功能字段一般使用。我们讨论我们的镜头通过等级的非线性卷曲镜头讨论我们的相关工作，进一步允许我们引脚点点的成功组件：非线性消息聚集在经典线性（可操纵）点卷积上改善;可操纵的消息在最近发送不变性消息的最近的等价图形网络上。我们展示了我们对计算物理学和化学的若干任务的方法的有效性，并提供了广泛的消融研究。

translated by 谷歌翻译

Deep Policy Dynamic Programming for Vehicle Routing Problems

Wouter Kool , Herke van Hoof , Joaquim Gromicho , Max Welling

分类：机器学习 | (统计)机器学习

2021-02-23

路由问题是许多实际应用的一类组合问题。最近，已经提出了端到端的深度学习方法，以了解这些问题的近似解决方案启发式。相比之下，经典动态编程（DP）算法保证最佳解决方案，但与问题大小严重规模。我们提出了深入的政策动态规划（DPDP），旨在将学习神经启发式的优势与DP算法结合起来。 DPDP优先确定并限制DP状态空间，使用来自深度神经网络的策略进行培训，以预测示例解决方案的边缘。我们在旅行推销员问题（TSP）上评估我们的框架，车辆路由问题（VRP）和TSP与时间窗口（TSPTW），并表明神经政策提高了（限制性）DP算法的性能，使其对强有力的替代品具有竞争力如LKH，同时也优于求解TSP，VRP和TSPTWS的大多数其他“神经方法”，其中包含100个节点。

translated by 谷歌翻译

Bayesian nonparametric discontinuity design

Max Hinne , David Leeftink , Marcel A. J. van Gerven , Luca Ambrogioni

分类：机器学习 | (统计)机器学习

2019-11-15

准实验研究设计，如回归不连续性和中断的时间序列，允许在缺乏随机对照试验的情况下进行因果推断，以额外的假设。在本文中，我们为使用贝叶斯模型比较和高斯进程回归提供了一种基于不连续性的设计的框架，我们将其称为“贝叶斯非参数不连续性设计”，或短路。 BNDD在这种设计的大多数实现中解决了两个主要的缺点：由于隐式调节对所谓的效果而言，由于依赖过于简单的回归模型，模型误操作。通过适当的高斯过程协方差函数，我们的方法可以检测任何订单的不连续性，以及频谱特征。我们展示了BNDD在模拟中的使用情况，并应用了框架，以确定历史悠久的政治立场的效果，涉嫌历史幻影边境在荷兰对荷兰投票行为的影响，以及昆达里尼瑜伽冥想对心率。

translated by 谷歌翻译